Hoe werkt de lerende AI?

Waarschijnlijk heb je gemerkt dat bij hexapawn speler 2 altijd wint als deze perfect speelt, ongeacht wat speler 1 doet. Perfect spelen gaat niet vanzelf. Dat moet je leren. Hoe werkt nu de lerende AI? 

Q-learning

De lerende AI gebruikt Q-learning om perfect te leren spelen. De "Q" staat voor "quality" oftewel kwaliteit. De AI is op zoek naar de zet met de hoogste kwaliteit. Het werkt als volgt:

De leerformule

De leerformule bepaalt hoe de scores voor de gedane zetten wordt aangepast nadat het potje voorbij is. Vanzelfsprekend wordt de score hoger bij winst en lager bij verlies. De berekening gaat als volgt:

nieuwe_score = oude_score * (1 - L)  + resultaat * L

Hierbij is L de "leersnelheid". Dit is een getal dat we zelf kunnen kiezen.  De leersnelheid zit tussen 0 en 1 in.

Als de leersnelheid gelijk is aan 0, dan doet het resultaat er niet toe en is de nieuwe score altijd gelijk aan de oude score.

Als de leersnelheid gelijk is aan 1, dan doet de oude score er niet toe en is de nieuwe score compleet gelijk aan het resultaat.

De hexapawn AI heeft een leersnelheid van 0,5.   Dat betekent dat de nieuwe score steeds een mix is tussen de oude score en het resultaat. Als je met een bepaalde zet steeds wint, zal de score steeds dichter de 1 naderen. 

Het spel hexapawn is zo eenvoudig, dat je zelfs met luciferdoosjes een lerende  AI kunt bouwen. Zie het filmpje hieronder: